查看原文
其他

初学爬虫时,如何正确的找到信息节点?

咪咪怪 咪哥杂谈 2019-10-31
咪哥杂谈

本篇阅读时间约为 3 分钟。


1

遇到的问题


上个月,有个朋友在初学爬虫的时候遇到了一个问题,给他解决问题的同时写了一个文档。今天给大家分享一下吧。也许你也会遇到相同的疑问。


在初学爬虫时,你可能会遇到一个问题,如何才能正确的从网页上分析出想要的节点呢?在此之前,你需要先了解一个知识点,HTML。


2

了解 HTML 


W3C,地址:

http://www.w3school.com.cn/html/index.asp


乍一看,内容很多的样子,但是实际上你只需要花 20 分钟大致了解下 HTML 基本的元素组成即可。就像下图,了解红框即可:



3

举个栗子


像笔者之前小课堂提到的熊猫直播,已经晾凉了,这次采用章鱼直播给大家举个栗子吧!(采用了他提供的直播站来讲解下)


章鱼直播地址:


http://www.zhangyu.tv/channeltypes/all


1.首先,明确要获取的信息,按下 F12,查看元素:



2.找到一组自己想要的数据:


 



3.观察多组数据,分析节点:


 


4.分析节点,统计数据:


 


找到爬取内容的前后节点信息,在 F12 中 Ctrl + F 搜索下 class ,看看有多少个,比如上面一共 94 个符合的class,说明基本符合房间数。



5.写正则匹配,将内容匹配出来即可。


 


具体正则写法,不赘述了,就是利用定界,分组原理即可。



结果如下:




4

总结


入门级的爬虫学习,可以找有规律的网站去小试牛刀,上手之后可以尝试深入学习。


在程序的实现上,正则表达式并不是唯一提取信息的手段,还有其他的手段,比如 Python 的 BeautifulSoup 库等...要明白哪些是具有共同性的,分析节点的思维是亘古不变的,无非变得就是代码实现而已。





▼往期精彩回顾▼总有那么几个人,优秀到让你窒息社会需要正能量还在用网易云音乐客户端?out了~


长按关注

公众号名称:咪哥杂谈

一个咪咪怪的公众号

长按二维码关注哦!


你点的每个在看,我都认真当成了喜欢

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存